查看原文
其他

助力科研,Google Data Search重磅来袭!

继 Google Scholar(Google 学术搜索)之后,Google 又为科研工作者推出了一款重磅产品—— Google Dataset Search(Google 数据集搜索)。


传统上,数据集广泛分布在各个研究网站、美国宇航局(NASA)和美国国家海洋和大气管理局(NOAA)等机构,甚至ProPublica等数据驱动的出版物上。通过“数据集搜索”功能,谷歌旨在调整其Google Scholar搜索方案,以帮助数据极客和研究人员在单个搜索栏中筛选这些数据。


“数据集搜索”(Dataset Search)将成为谷歌学术搜索服务的伴侣服务。在网上发布数据的机构,例如大学和政府部门,可以在网页中加入元数据标签,以描述他们的数据,包括谁创建了数据、何时发布数据,以及如何收集数据。为了创建数据集搜索,谷歌为数据集提供了一套指南,以便谷歌(和其他搜索引擎)能够更好地理解其页面的内容。


这套指南主要突出了数据集以下方面的信息:数据集的创建者、数据集发布时间、数据集搜集方法、数据集使用条款等。


网址:https://toolbox.google.com/datasetsearch


然而,数据集和相关数据往往分布在网上的多个数据存储区中。一些掌握了大量数据的互联网公司因此拥有很大的优势,而高校的学者除了一些公开的知名数据集,想要拥有大量的数据则非常困难。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。因此 Google 的这款产品可谓是及时雨。当然,其他需要各种数据的工作者也能从中受益。


Google Dataset Search 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。


现在,就让我们来一起看下这款搜索工具。


与 Google Scholar 类似,Google Dataset Search 可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页。


为了创建 Dataset Search,Google 还为数据集提供方制定了一套数据指南(https://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者、发布时间、数据收集方式、使用数据的条款等等。然后,Google 收集并链接这些信息,分析同一数据集的不同版本可能在哪里,并找到可能描述或讨论这一数据集的出版物。


Google 的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。


在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如 ProPublica。随着越来越多的数据仓库使用 schema.org 标准来描述他们的数据集,Google Dataset Search 能够搜索到的数据集的种类和覆盖面将持续增长。


例如,如果你想分析每天的天气记录,你可以在数据集搜索中尝试输入daily weather:,结果如下图所示:    


          

可以看到,左边栏呈现的是各种数据源,右边则是相应的介绍,包括数据集的名称、下载链接、更新日期、提供者、说明等等,非常清晰。


正如搜索结果所示,你可以看到来自NOAA的数据集,同时也是可以看到来自学术存储库的数据。


正如NOAA的首席数据官Ed Kearns所说:“这种类型的搜索长期以来一直是科学界许多研究人员的梦想!”


但是谷歌方面也表示,像这样的搜索工具只有在数据发布者愿意提供的元数据的基础上才能发挥作用。并呼吁广大数据提供者能够采用schema.org标准来描述数据。


Dataset Search 的发布凸显了 Google 对数据集的重视。最近,Google 也对自家的 Google Search 也进行了改进,使得用户搜索结果中发现表格数据变得更加容易,不过该计划更侧重于新闻机构和数据记者,而 Dataset Search 的受众则更加广泛。


Google 表示,这个项目能够带来下列好处:


a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;


b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。


当然,Google Dataset Search 的搜索质量取决于数据发布者,因此,如果大家都用开放标准来描述自己的数据,那么搜索结果肯定会越来越好。


(内容来源于网络)

(完)


更多精彩:

开学了, AI 专业的本科生究竟学什么?

【目录】《计算机教育》 2018年第9期

数据解读:最受资本欢迎的人工智能领域

2018 CIE中国IT教育博鳌论坛征文通知

关于召开“2018中国IT教育博鳌论坛”的通知

国家三部委联合发文,加快“双一流”建设!

以赛促教,以赛促学,创新人才能力培养——中国大学生计算机设计大赛参赛有感

立意正、内容顺、质量精、心理硬 ——中国大学生计算机设计大赛参赛有感

2015年中国大学生计算机设计大赛软件开发与设计类决赛获奖情况分析

精彩的赛事,成功的实践——写在中国大学生计算机设计大赛十年

【目录】《计算机教育》 2018年第8期

【言十系列】新工科建设与系统能力培养

【目录】《计算机教育》 2018年第7期

张钹院士:走向真正的人工智能

【言十系列】论新工科建设及计算机与软件工程学科的作用

【目录】《计算机教育》 2018年第6期

【目录】《计算机教育》 2018年第5期

喜讯:《计算机教育》跃居《中国学术期刊影响因子年报(人文社会科学)2017版》Q1区!

《计算机教育》荣获“2017中国最具国际影响力学术期刊”

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存